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摘要 : 在 各 种 真 核 生 物 核 基因 组 中 ， 存 在 一 些 由 线粒体 基因 组 转移 进入 核 基因 组 中 的 DNA 片段 ， 这 些 被 认 

为 是 分 子 化 石 的 片段 叫做 线粒体 核 内 插入 序列 (Numt)。 由 于 Numt 与 真实 的 线粒体 序列 高 度 相 似 ， 因 此 它 的 存 

在 必然 会 成 为 PCR 扩 增 线粒体 DNA 的 不 利 因素 。 利 用 已 经 公布 的 家 马 (Equus caballus) 基因 组 序列 (2007 年 9 

公布, GenBank 登录 号 为 NC_009144 一 NC_009175) 对 家 马 Numt 进行 了 深入 分 析 , 共 发 现 200 个 可 能 的 Numt， 

长 度 范围 为 29 到 3727bp, 其 中 有 10 个 的 长 度 大 于 800bp。 分 析 结 果 显 示 由 于 不 存在 线粒体 控制 区 域 的 疑似 Numt， 

因此 对 基于 此 区 域 的 群体 遗传 学 研究 不 会 产生 影响 。 本 研究 还 发 现在 家 马 进 化 过 程 中 ， 第 1 号 和 27 号 染色 体 更 

倾向 于 接受 线粒体 序列 的 转移 。 以 上 结果 将 为 今后 马 科 动 物 的 研究 提供 重要 的 参考 信息 ， 有 助 于 避免 在 线粒体 
DNA 研究 中 由 于 Numt 污染 的 存在 而 得 出 错误 的 实验 结果 。 
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Abstract: The nuclear insertions of mitochondrial DNA (Numts), which originate from the integration of nuclear 
DNA by mtDNA, are found as molecular fossils in the nuclear genomes of various eukaryotes. Because integrated Numts 
tend to have a high sequence similarity to genuine organellar mtDNA sequences, inadvertent amplification of Numts can 
be a nuisance in studies of mtDNA variation. With the availability of the complete domestic horse genome sequence, we 
present the first comprehensive analysis of genome-wide distribution and frequency of Numts in the nuclear genome of 
domestic horse (Equus caballus). In the present paper, we detected 200 Numts ranging between 29 and 3 727bp in size, 
which collectively representing only 0.002154% of the nuclear genome. Furthermore, ten of these segments were found 
to be longer than 800 bp. The absence of Numts in mitochondrial control region suggested that it would not influence the 
analysis of horse population genetics studies relating to this region. We also found that during horse evolution, 
Chromosomes 1 and 27 have been more susceptible to integration by Numts. The results in this study may provide 
valuable information for future mtDNA studies in Equidae species, including its use as a tool for avoiding Numt 
contaminations that may result in inauthentic results of experimentation. 
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在 真 核 生 物 中 ， 存 在 与 线粒体 DNA(mtDNA) ” 相似 的 细胞 核 DNA 片段 ， 这 些 片 段 被 称 为 线粒体 
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DNA 核 内 插入 序列 uclear insertion of 
mitochondrial DNA, Numt)( Lopez et al, 1994)， 或 者 
称 为 线粒体 假 基 因 (Wang, 2004). HM 1967 年 首次 
发 现 Numt 以 来 (du & Riley, 1967), 在 多 种 动 植物 的 
细胞 核 基因 组 内 都 发 现存 在 Numt 现象 (Bensasson 
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容易 被 PCR 扩 增 (Mirol et al, 2000; Zhang et al, 
2006)， 必然 会 混淆 后 续 的 数据 分 析 ， 甚至 得 出 错误 
的 物种 间 进 化 关系 和 生物 系统 地 理学 结论 
(Thalmann et al, 2004)。 受益 于 越 来 越 多 物种 的 基因 
组 测序 项 目的 完成 ， 使 得 Numt 在 核 基 因 组 中 的 系 






























































et al, 2001; Richly & Leister, 2004)。mtDNA 与 核 基 
因 组 发 生 非 同 源 重组 是 Numt 产生 与 积累 的 重要 原 
因 (Henze & Martin, 2001; Woischnik & Moraes, 
2002)， 而 核 基因 组 倍增 是 Numt 数目 增多 的 另外 一 
个 原因 (Tourmen et al, 2002; Hazkani-Covo et al, 
2003) 。 因 此 Numt 在 不 同 物种 中 积累 的 数目 差异 
很 大 ， 在 人 类 (Homo sapiens)、 水 称 (Oryza Sativa) 
K M F (Arabidopsis thaliana) 中 存在 大 量 的 
Numt， 但 是 在 秀丽 广 杆 线虫 (Caenorhabditis 
elegans)、 原 鸡 (Gallus gallus) 和 蜜蜂 (Apis mellifera) 
中 却 存 在 很 少 的 Num 或 者 其 至 没有 (Pereira & 
Baker, 2004)。 造 成 这 种 数目 差异 的 原因 目前 并 未 弄 
清 。 因 此 有 必要 对 不 同 物 种 的 Numt 系统 分 析 ， 为 
阐明 Numt 进化 规律 奠定 基础 。 
随 着 基因 组 序列 的 测定 ， 对 不 同 物种 Numt 系 
统 分 析 的 工作 已 经 逐步 开展 。 人 类 基因 组 的 分 析 显 
示 ， 最 长 的 Numt 片段 达到 14654bp， 片 段 长 度 大 
于 800bp 的 数目 为 110 个 (Mourier et al, 2001). HF 
以 往 未 对 人 类 Numt 进行 系统 分 析 , Numt 富 集 现象 
造成 PCR 过 程 中 的 Numt 混入 ,因此 得 出 错误 的 疾 
病 研究 结果 (Wallace et al, 1997)， 甚 至 是 人 类 Numt 
AT TRU Ae REIN DNA 序列 (Zischler et al, 
1995)。 而 最 近 对 家 猫 (Felis catus)1.9 倍 覆 盖 的 核 
基因 组 序列 分 析 , 也 发 现 高 达 12.5kb 和 7.9kb 的 疑 
似 Numt 存在 ， 并 建议 在 猫 科 动物 线粒体 群体 遗传 
学 研究 中 应 该 首先 仔细 检查 Numt 的 混入 污染 情况 
(Antunes et al, 2007)。 但 是 并 非 所 有 的 物种 都 需要 
如 此 谍 愤 ， 对 家 鸡 核 基因 中 疑似 Numt 分 析 发 现 ， 
只 要 PCR 扩 增 片 段 大 于 1.5kb 就 能 获得 真实 线粒体 
序列 (Pereira & Baker, 2004)。 

mtDNA 由 于 具有 严格 母系 遗传 模式 、 拷 贝 数 
目 较 多 和 无 DNA 重组 现象 等 优点 ， 因 此 作为 分 子 
标记 广泛 运用 于 后 生动 物 的 系统 发 育 学 和 群体 遗 
传 学 研究 。 但 是 在 mtDNA 的 分 析 中 ， 作 为 线粒体 
基因 的 旁 系 同 源 物 ，Numt 的 排除 不 可 避免 的 成 为 
首要 解决 的 问题 。Numt 与 线粒体 基因 比较 ， 序 列 
的 进化 速度 相对 较 慢 ， 因 此 当 使 用 物种 间 的 通用 引 
物 或 者 基于 保守 区 域 设计 的 引物 时 ，Numt 往往 更 

























































































































































































































































































































































































统 、 全 面 地 评估 得 以 实现 。 最 近 Broad 研究 所 公布 
的 家 马 (Equus caballus) 基 因 组 数据 为 我 们 分 析 家 马 
Numt 提供 了 有 利 条 件 。 家 马 基因 组 中 共有 31 对 常 
染色 体 和 1 对 性 染色 体 。 本 研究 通过 分 析 家 马 细胞 
核 基 因 组 中 Numt， 为 蕊 科 动 物 分 子 进化 和 群体 遗 
传 学 研究 提供 Num 的 重要 参考 信息 ， 以 期 在 后 续 
基于 mtDNA 的 研究 中 能 够 避免 由 于 Numt 的 影响 
而 得 出 不 正确 的 结论 。 


1 材料 与 方法 


11 材 料 

家 马 基因 组 序列 由 美国 国立 生物 技术 信息 ， 
心 (National Center for Biotechnology Information， 
http://www.ncbi.nlm.nih.gov/) 数 据 库 下 载 。 家 马 线 粒 
体 基 因 组 全 序列 登录 号 为 NC_001640(Xu & 
Armason，1994)， 其 细胞 核 基因 组 序列 登录 号 为 
NC _009144-NC 009175， 核 基因 组 数据 中 不 包括 未 
公布 的 Y 染色 体 序列 。 核 基因 组 数据 是 基于 6.8 倍 
覆盖 的 乌 枪 法 测序 获得 ， 于 2007 年 9 月 公布 。 
1.2 ” 核 基因 组 中 疑似 Numt 鉴定 

以 核 基因 组 序列 建立 本 地 数据 库 ， 线 粒 体 全 基 
因 序 列 为 查询 序列 ，BLAST(Basic Local Alignment 
Search Tool) 用 于 搜寻 核 基 因 组 中 的 线粒体 插入 序 
列 (Altschul et al, 1990)。 为 寻找 到 具有 生物 学 意义 
的 疑似 Numt， 按 照 以 往 文献 中 的 方法 ,将 BLASTN 
中 的 最 大 期 望 值 设置 为 c=10"(Pereira & Baker, 2004; 
Richly & Leister, 2004)。 不 设 定 低 复杂 序列 区 域 过 
VEU. 核酸 序列 基 对 不 匹配 所 罚 分 数 (penalty for 
a nucleotide mismatch) 和 核 苷 酸 序列 基 对 匹配 所 加 
分 数 (reward for a nucleotide match) 为 默认 设置 ， 
设 定 值 分 别 为 -3 和 1。 当 两 个 不 同 疑 似 Numt 在 距离 
和 位 置 上 与 其 对 应 的 线粒体 部 分 匹配 时 ， 这 两 个 疑 
似 Numt 就 认为 是 发 生 于 同一 次 核 转移 事件 并 且 被 
连接 成 为 一 个 疑似 Numt(Woischnik & Moraes, 
2002)。 使 用 Ensembl 在 线 图 形 界面 基因 组 浏览 器 对 
家 马 疑 似 Numt 在 核 基因 组 中 整合 位 置 进 行 观察 , 鉴 
定 疑 似 Numt 所 在 区 域 的 基因 结构 特征 (Hubbard et 
al, 2002)。 
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1.3 疑似 Numt 中 相应 线粒体 基因 识别 

以 线粒体 单一 基因 单元 为 标准 序列 ， 使 用 
Clustal W 软件 确定 每 个 疑似 Numt 中 相应 基因 的 起 
始 位 置 (Thompson et al, 1994), DNA 权重 矩阵 
(Weight Matrix) 设 置 为 IUB， 空 位 开放 如 分 〈Gap 
Opening Penalty) 和 空位 延伸 罚 分 (Gap Extension 
Penalty) 分 别 设置 为 10.00 和 0.20。 使 用 DnaSP 软件 
将 所 获得 的 疑似 Numt 序列 翻译 成 蛋白 质 序列 ， 分 
别 选择 哺乳 动物 线粒体 密码 子 和 细胞 核 通用 密码 
子 (Nuclear Universal) 作为 指导 (Rozas & Rozas, 
1999)。 
1.4 tRNA 结构 预测 

核 插入 序列 中 的 一 些 tRNA(Numt-tRNA) 的 序 
列 组 成 依然 完整 ， 因 此 通过 对 Numt-tRNA 及 其 相 
应 的 Mt-tRNA 的 二 级 结构 比较 ， 鉴 定 Numt-tRNA 
是 否 发 生 结构 变异 ， 推 新 其 是 否 仍然 存在 生物 学 功 
能 。 使 用 tRNAscan-SE 软件 寻找 疑似 Numt 中 的 
tRNA ， 参 数 选择 如 下 : 设 定 为 
Mito/Chloroplast; Genetic Code for tRNA Isotype 
Prediction 设 定 为 Vertebrate Mito; 其 余 参 数 为 默认 


(Lowe & Eddy, 1997). tRNA 二 级 结构 预测 软件 使 
tRNAscan-SE 1.21 和 Mfold 软件 ， 折 对 的 温度 设 定 


为 37?， 其 余 参 数 为 默认 (Zuker 2003)。 
2 结 果 


21 家 马 基因 组 中 疑似 Numt 的 数目 与 长 度 

当 BLASTN 的 最 大 期 望 值 设 定 为 e=104 时 ， 家 
马 核 基 因 组 中 总 共 搜 索 到 200 个 与 线粒体 序列 相似 
的 疑似 Numt 片 段 。 履 盖 线 粒 体 基因 组 达到 800bp 以 
上 区 域 的 疑似 Numt 数 目 共 有 10 个 (5%)， 而 能 够 达 
到 3kb 以 上 的 片段 仅 为 1 个 ,在 片段 长 度 大 于 800bp 
的 疑似 Numt 中 , 仅 有 1 个 包括 控制 区 域 ( 表 1 中 第 
14 号 疑似 Numt)， 并 且 所 包括 的 控制 区 域 仅仅 只 有 
49bp。 表 1 为 这 些 疑 似 NUMT 在 家 马 核 基因 组 中 的 
情况 统计 ，Start 和 End 表 示 疑 似 Numt 在 家 马 核 基 因 
组 和 线粒体 基因 组 中 的 起 始 位 置 。Orientation (Ori) 
对 应 整合 进入 核 基因 组 的 方向 是 5'>3'(+) 或 者 
3>5()。E-val 和 ID 分 别 显示 BLAST 中 返回 的 期 望 
值 和 相似 性 的 数值 。 所 有 的 疑似 Numt 片 段 长 度 之 和 
为 44373 bp， 大 约 是 家 马 线粒体 基因 组 全 序列 的 
2.66 倍 ， 约 为 核 基因 组 序列 的 0.002154%。 图 1 为 
疑似 Numt 长 度 与 相似 性 示意 图 , 其 中 最 长 的 序列 长 
FEA 3727 bp， 相 似 性 为 93.99%; 最 短 的 序列 长 度 
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为 29bp， 相 似 性 为 100%。 序 列 相 似 性 的 范围 为 
79.2% 一 100%。 由 表 2 所 示 ， 疑 似 Numt 在 线粒体 基 
因 组 中 未 覆盖 的 区 域 长 度 之 和 为 789bp， 约 线粒体 
基因 组 全 序列 长 度 的 4.74%。 
2.2 FEU Numt 中 相应 线粒体 基因 

家 马 线粒体 基因 组 中 共有 13 个 编码 和 蛋白、2 个 
核糖 体 RNA 和 22 个 tRNA, 疑似 Numt 中 包含 结构 
相对 完整 的 9 个 编码 蛋白 、20 个 tRNA 和 2 个 核糖 
体 RNA， 而 ND2、COX2、ATP8、ND4 和 控制 区 
的 部 分 序列 在 疑似 Numt 中 没有 发 现 。 尽 管 疑 似 
Numt 中 存在 9 个 相对 结构 完整 的 编码 蛋白 ， 但 是 
无 论 是 使 用 哺乳 动物 线粒体 密码 子 还 是 使 用 细胞 
核 通 用 密码 子 ， 在 这 些 编码 蛋白 中 都 存在 开放 阅读 
匡 内 部 的 终止 密码 子 和 /或 移 码 突变 。 此外， 也 未 发 
现 结构 完整 的 线粒体 控制 区 域 疑 似 Numt 存在 。 
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图 1 Numt 长 度 与 相似 性 示意 图 

Fig. 1 The distributions of the Numts length and 
similarities between different length Numts and mtDNA 核 型 图 
上 的 箭头 表示 疑似 Numt 整合 位 置 ， 外 周 线条 表示 疑似 Numt 在 线粒体 
FE [Al H E A iti IX zk. The integration sites in the karyotype map are 











indicated by solid arrows; the location of each Numts is covered by 


peripheral line. 


tRNA 二 级 结构 预测 的 结果 显示 ， 除 了 位 于 21 
号 染色 体 上 的 1 个 工 NA-Arg 线粒体 插入 序列 以 外 ， 
所 有 的 Numt-tRNA 由 于 存在 非 Waston-crick 碱 基 对 
或 者 被 改变 茎 环 结构 ,因此 不 能 准确 的 折 县 成 相应 
的 结构 (图 2)。 该 21 号 染色 体 上 的 插入 序列 长 度 
为 84bp， 含 有 部 分 ND3 和 ND4L 的 序列 ， 与 线 粒 
体 中 的 对 应 区 域 相似 性 为 100%。 
2.3” 核 基因 中 疑似 Numt 的 所 在 区 域 

根据 疑似 Numt 在 染色 体 上 的 位 置 ， 通 过 登陆 
Ensembl 在 线 图 形 界面 基因 组 浏览 器 对 疑似 Numt 
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表 1 疑似 Numt(>500bp) 在 家 马 核 基因 组 中 的 分 布 
Tab.1 Numts Distribution (>S00bp) in the domestic horse nuclear genome 
编号 所 包括 基因 Genes included mtDNA 起 点 mDNA KE ”染色体 染色体 起 点 染色体 终点 
NO. Start mtDNA End mtDNA Length Chrom Start chrom End chrom 
1 tRNA-Phe s-rRNA tRNA-Val ]-TRNA 1 3727 3727 1 136277800 136281515 
tRNA-Leu ND1 
2 tRNA-Phe s-rRNA 41 959 919 1 21135884 21136799 
3 s-rRNA 159 805 648 1 108586953 108586306 
4 COX1 5364 5880 517 1 66913138 66913654 
COX1 5966 6736 771 1 66913721 66914490 
5 CYTB 14194 15093 900 1 105391947 105391053 
6 CYTB 14563 15091 531 1 136275828 136276358 
7 COX1 tRNA-Ser tRNA-Asp COX2 tRNA-Lys 6267 8006 1743 5 64470402 64468670 
ATP8 
8 ND5 ND6 13358 13887 530 5 60735755 60736284 
9 ND3 tRNA-Arg ND4L ND4 9684 10224 541 6 29859449 29858912 
10 tRNA-Leu ND1 2698 3234 537 10 70230223 70229687 
11 tRNA-Phe s-rRNA 1 804 806 20 3169875 3170675 
12 ND2 4250 4934 686 27 4654943 4654258 
ND2 tRNA-Trp tRNA-Ala tRNA-Asn 4948 7457 2510 27 4654258 4651753 
origin of L strand replication tRNA-Cys 
tRNA-Tyr COX1 tRNA-Ser tRNA-Asp COX2 
13 ATP6 COX3 tRNA-Gly ND3 tRNA-Arg 8065 0235 2177 27 36711445 36709276 
ND4L ND4 
ND4 10320 11438 1123 27 36709186 36708064 
ND4 tRNA-His tRNA-Ser tRNA-Leu ND5 11499 4435 2938 27 36707963 36705026 
ND6 tRNA-Glu CYTB 
14 ND6 tRNA-Glu CYTB tRNA-Thr tRNA-Pro 14036 5518 1483 27 4659109 4657629 
control region 
编号 , 不 匹配 数 数 分 值 E 值 相似 性 ID eee 
J -E 
NO. 所 包括 基因 Genes included Mismatch Gap Blast score E-val (%) Aon 
1 tRNA-Phe s-rRNA tRNA-Val l-rRNA 213 6 5574 0.00E+00 93.99 + 
tRNA-Leu ND1 
2 tRNA-Phe s-rRNA 32 3 1520 0.00E+00 96.19 + 
3 s-rRNA T 1 1213 0.00E+00 98.77 = 
4 COX1 101 0 224 8.00E-56 80.46 
COX1 129 1 490 9.00E-136 83.14 + 
5 CYTB 154 4 494 5.00E-137 82.33 = 
6 CYTB 46 2 656 0.00E+00 90.96 + 
7 COX1 tRNA-Ser tRNA-Asp COX2 tRNA-Lys 261 8 1229 0.00E+00 84.28 = 
ATP8 
8 ND5 ND6 32 0 797 0.00E+00 93.96 F 
9 ND3 tRNA-Arg ND4L ND4 81 3 383 6.00E-104 84.47 = 
10 tRNA-Leu ND1 5 0 1025 0.00E+00 99.07 = 
11 tRNA-Phe s-rRNA 84 7 821 0.00E+00 88.71 + 
12 ND2 77 1 733 0.00E+00 88.63 = 
ND2 tRNA-Trp tRNA-Ala tRNA-Asn 239 3 3027 0.00E+00 90.32 = 
origin of L_strand_replication tRNA-Cys 
tRNA-Tyr COX1 tRNA-Ser tRNA-Asp COX2 
13 ATP6 COX3 tRNA-Gly ND3 tRNA-Arg 31 11 3883 0.00E+00 97.98 = 
ND4L ND4 
ND4 16 4 2036 0.00E+00 98.22 = 
ND4 tRNA-His tRNA-Ser tRNA-Leu ND5 33 1 5547 0.00E+00 98.84 = 
ND6 tRNA-Glu CYTB 
14 ND6 tRNA-Glu CYTB tRNA-Thr tRNA-Pro 144 1 1776 0.00E+00 90.16 = 
control region 
i >a Art > YE A= 二 D thr AJ O y by [iy wre ry ` =- 
整合 位 置 的 邻近 区 域 进行 分 析 。 发 现 整 合 位 置 ” 27 和 5 号 染色 体 的 疑似 Numt 数目 分 别 为 6.3 和 2， 


一 般 都 不 在 已 知 或 者 预测 的 基因 

















内 部 ， 邻 近 区 域 也 


没有 cDNA, 表达 序列 标签 或 者 同 源 蛋 白质 质 存 在 。 
整合 位 置 的 邻近 区 域 一 般 富 含 简单 重复 ， 串 联 重复 






























































或 者 长 散布 重复 序列 ， 但 是 未 发 现 这 些 重复 序列 与 


疑似 Numt 存在 任何 明显 的 关联 。 包 
较 长 的 14 个 疑似 Numt (>500bp) ! 











1 图 3， 在 相对 














， 位 于 第 1、 





第 6、10 和 20 号 染色 
个 。 所 有 疑似 Numt ! 

















长 度 最 长 





本 上 的 疑似 Numt 数目 皆 为 1 
的 片段 位 于 第 1 号 


染色 体 , 该 疑似 Numt 的 覆盖 区 域 包 含有 外 NA-Phe、 
12S rRNA, tRNA-Val, 16S rRNA, tRNA-Leu 和 


NDI 基 





因 部 分 同 源 序 列 。 对 位 于 21 号 染色 体 上 、 





似 性 为 100%、 长 度 为 84bp 的 这 一 个 疑似 Numt 整 
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相似 性 


es between numts and mtDNA ( 
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未 覆盖 区 域 Uncovered Region 


Ze PG: 
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表 2 家 马 疑 似 Numt 在 线粒体 中 未 覆盖 的 对 应 区 域 


Tab. 2 Uncovered region in the horse mitochondrial counterparts of Numt 





基因 位 置 Gene Location 








长 度 Length (b 所 包括 基因 Gene Included 
起 点 Start 终点 End PE eneth op) i 起 点 Start ”终点 End 
3954 3980 27 ND2 3937 4977 
4167 4249 83 ND2 3937 4977 
4935 4936 2 ND2 3937 4977 
7566 7649 84 COX2 7048 7731 
7746 7748 3 tRNA-Lys 7735 7802 
7813 7948 136 ATP8 7804 8007 
10236 10264 29 ND4 10205 11582 
10317 10319 3 ND4 10205 11582 
11439 11498 60 ND4 10205 11582 
15590 15684 95 tRNA-Pro 15468 15403 
16121 16387 267 Control region 15469 16660 
s-c 7 
FZ TA tt 
ia BAS 
: : T 
6:4 at a c= Bis cTCCTr^ T 
in CT. HTAT ps x A sc 
TATTOO = A TEOS A 
a Rabb A A J A Qe 
TATA 合 : 区 a. Store Ss: £ 
&:S TRT K:F 
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图 2 tRNA 二 级 结构 预测 


箭头 表示 疑似 Numt 4 


) 


Identiti 


“0 1000 








Fig. 2 Prediction of secondary structure for tRNAs 
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长 度 Length of numts (bp) 
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图 3 疑似 Numt 在 家 马 线 粒 体 中 的 分 布 
Fig.3 Representation of the BLASTN Numts detected 





4000 


in the domestic horse genomes surveyed and their 


homology with the mtDNA genome 


发 生变 异 的 位 点 (Mismatches in the alignment are indicated by arrows). 





合 位 点 附近 区 域 进 行 检查 ， 未 发 现存 在 由 于 插入 、 
缺失 或 者 重 排 等 原因 造成 疑似 Numt 断裂 的 现象 。 


3 it it 


在 真 核 生物 的 核 基因 组 人 工 细菌 染色 体 
(Bacterial artificial chromosome, BAC) 文库 构建 、 
序列 组 装 和 基因 组 图 谱 测 定 的 过 程 中 ，mtDNA 污 
梁 是 一 个 不 可 忽视 的 问题 。 由 于 高 等 植物 中 的 线 粒 
体 基 因 组 长 度 较 长 CNCBI Organelle Genome 
Resources， http://www.ncbi.nlm.nih.gov/genomes/ 
ORGANELLES/organelles.html), 7347E BAC 文库 
构建 过 程 中 被 克隆 进入 载体 ， 因 此 对 于 植物 基因 组 




























































































582 动 物 学 


文库 中 mtDNA 污染 的 评估 成 为 一 项 常规 性 操作 
(Yoo et al, 2004; Wang et al, 2005)。 而 类 似 家 马 这 种 
高 度 兰 椎 动物 的 线粒体 基因 组 一 般 约 16 kb 左右 ， 
对 于 平均 插入 长 度 至 少 大 于 100kb 的 BAC 文库 ， 
mtDNA 的 污染 很 容易 在 文库 构建 过 程 中 被 排除 ， 
因此 存在 mtDNA 污染 的 可 能 性 微乎其微 (Leeb T et 
al，2006)。 故 本 研究 中 所 使 用 的 家 马 核 基因 组 序列 
中 ， 所 鉴定 的 疑似 Numt 肯定 并 非 源 自 基因 组 序列 
组 装 过 程 中 的 mtDNA 污染 。 

RA Numt 存在 下 列 3 种 现象 ， 因 此 推测 这 些 
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增 (Zhang & Hewitt, 1996)。 因 此 , 在 线粒体 DNA f 
究 中 当 其 不 慎 被 扩 增 容易 混淆 分 析 结 论 ， 特 别 是 在 
使 用 进化 速率 相对 较 慢 的 基因 序列 作为 分 子 标 
记 的 时 候 (van et al, 1995)。 在 群体 遗传 学 和 生物 地 
理学 研究 中 ， 线 粒 体 控制 区 域 的 序列 常常 被 用 作 分 
子 标 记 物 , 通过 PCR 产物 测序 的 策略 获得 该 区 域 的 
多 态 信息 (Aberle et al, 2007; Kakoi et al, 2007)。 比 较 
幸运 的 是 在 马 群 体 遗 传 学 研究 中 , 通常 覆盖 控制 区 
域 的 片段 长 度 远 大 于 49bp，PCR 扩 增 的 片段 往往 
大 于 800bp， 因 此 Numt 对 于 基于 线粒体 控制 区 域 





























































































































转 入 细胞 核 中 的 序列 已 经 丧失 功能 : (1) 由 于 线粒体 
和 细胞 核 内 遗传 密码 的 差异 使 得 在 开放 阅读 框 中 
出 现 非 正常 终止 密码 子 或 者 移 码 突变 ; (2) 控 制 区 域 
的 缺乏 或 者 不 完全 造成 无 法 进行 正常 的 转录 ; (3) 
某 些 功能 区 域 出 现 序列 缺失 , 使 得 蛋白 质 或 者 RNA 
高 级 结构 受到 破坏 。 上 述 3 种 现象 在 原 鸡 和 家 猫 基 
因 组 中 也 被 发 现 (Pereira & Baker, 2004; Kim et al, 
2006). 
般 而 言 ， 所 有 的 动物 线粒体 tRNA 都 属于 一 
型 tRNA， 具 有 典型 的 三 叶 草 结构 特征 。 家 马 的 疑 
似 Numt tRNA 与 牛 (Bos taurus)、 原 鸡 一 样 ， 整 合 
进入 核 基 因 组 中 以 后 ， 由 于 受到 的 选择 压力 减轻 而 
逐渐 退化 产生 许多 变异 位 点 。 存 在 这 些 变 异 位 点 造 
成 让 NA 二 级 结构 中 形成 非 Waston-crick 碱 基 对 或 
者 改变 茎 环 结构 ,必然 影响 其 结构 的 稳定 性 (Pereira 
& Baker, 2004; Liu & Zhao, 2007)。 因 此 ， 二 级 结构 
预测 结果 显示 绝 大 部 分 的 Numt-tRNA 都 不 能 准确 
的 折 钱 成 相应 结构 ， 推 测 这 些 Numt-tRNA 可 能 
经 丧失 功能 ， 被 称 作 “到 达 即 死 ”(dead on arrival) 
(Antunes & Ramos, 2005)。 但 是 ， 在 本 研究 中 发 现 
一 个 疑似 Numt 包括 序列 相似 性 为 100% 的 
tRNA-Arg, 高 度 的 序列 相似 性 推测 该 插入 序列 可 能 
是 最 近 转 移 进 入 线粒体 基因 组 的 。 由 于 该 Numt 整 
合 区 域 附近 未 发 现存 在 由 于 插入 、 缺 失 或 者 重 排 等 
原因 造成 的 Numt 断裂 现象 ， 说 明 此 84bp 的 Numt 
插入 是 经 过 一 次 独立 的 核 转 移 过 程 ， 上 暗示 片段 较 短 
的 Numt 也 有 可 能 转 入 核 基 因 中 。 
对 家 马 基因 组 中 Numt 特征 和 分 布 的 系统 地 分 
析 , 为 马 科 群体 遗传 学 和 系统 发 生 学 研究 中 的 Numt 
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序列 的 群体 遗传 学 研究 的 结果 不 会 产生 影响 
(Harrison & Turrion-Gomez, 2006; Aberle et al, 2007; 
Kakoi et al, 2007)。 如果 需 要 使 用 线粒体 控制 区 域 以 
外 的 其 他 序列 作为 分 子 标记 物 时 ， 应 该 采取 一 些 措 
施 避 免 Numt 的 扩 增 (Greenwood & Paabo, 1999; 
Wang, 2004): (1) 选 择 线粒体 含量 相对 较 高 的 组 织 提 
W DNA; (2) 根 据 所 研究 的 特定 物种 分 类 设计 扩 增 
引物 ， 特 别 是 在 引物 的 3' 端 尤为 重要 ; (3) 以 长 片段 
PCR 产物 为 模板 进行 二 次 PCR。 此 外 ， 如 果 获 得 的 
序列 结果 中 编码 基因 区 域 出 现 移 码 突变 、 终 止 密码 
子 、 碱 基 组 成 或 者 转换 / 颠 换 比 率 的 较 大 差异 等 现 
象 ,也 说 明 可 能 存在 Numt 的 污染 (Mirol et al, 2000). 

随 着 日 益 增 多 的 全 基因 组 序列 公布 ， 比 较 和 分 
析 Numt 在 物种 间 的 进化 过 程 得 以 实现 。 对 Numt 
进化 史 、 染 色 体 上 分 布 位 置 及 数量 的 特征 分 析 ， 尤 
其 是 对 亲缘 关系 非常 接近 物种 之 间 的 分 析 ， 能 够 更 
好 地 阐明 Numt 的 进化 规律 (Bensasson et al, 2001)。 
利用 近 缘 物种 研究 生物 进化 的 手段 目前 已 经 基本 
具备 ， 而 且 由 于 人 类 及 其 相近 物种 核 基因 组 序列 的 
测定 ,因此 受到 更 多 研究 者 的 青睐 (Chen et al, 2001; 
Ricchetti et al, 2004)。 但 是 , 目前 正在 进行 或 者 已 经 
完成 的 基因 组 计划 更 多 的 关注 于 生物 医学 领域 或 
者 分 类 地 位 上 重要 的 一 些 物种 (O'Brien et al, 2001)， 
除了 人 类 以 外 的 近 缘 物种 在 整个 基因 组 水 平 比较 
的 Numt 研究 较 少 ， 更 多 的 只 是 关注 于 部 分 区 域 的 
研究 (Mirol et al, 2000; Kim et al, 2006; Martins et al, 
2007)。 相 信 在 不 久 的 将 来 , 受益 于 新 一 代 测 序 技术 
的 发 展 和 测序 成 本 的 降低 ， 越 来 越 多 物种 的 全 基因 
组 序列 将 会 被 解析 。 对 更 大 范围 近 缘 物种 间 的 比 
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识别 提供 参考 资料 。 在 PCR 过 程 中 ，Numt 与 线 粒 























较 ， 有 助 于 研究 Numt 的 起 源 、 分 化 和 进化 历史 ， 






































体 的 扩 增 产物 往往 长 度 相似 ， 并 且 偏 好 扩 增 或 者 共 











并 且 为 更 准确 的 基因 组 功能 注释 提供 参考 。 
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2008 年 10—11 月 在 昆仑 山 考察 期 间 ， 在 野外 
9 报到 20 RIKAS Ficedula hypoleuca (Pallas, 
1764) ] 的 生态 照片 (其 一 请 见 本 期 封面 照片 ), 经 
过 专家 比 对 和 文献 查证 ， 确 定 为 中 国 鸟 类 一 新 记录 
种 。 该 鸟 的 发 现 地 点 在 新 疆 南 部 和 田地 区 于 田 县 阿 
羌 乡 普 鲁 村 (36°11'15.6" N，81°28'56.9" E), 海拔 2 
601m。 属 于 昆仑 山南 入 与 塔克拉玛干 沙漠 之 间 的 一 
个 峡谷 绿洲 ， 位 于 克 里 雅 河 的 上 游 。 生 境 有 园林 、 
农田 和 殉 漠 草原 。 记 录 时 间 为 2008 年 10 月 23 日 
TE; SESH E H S AA A a M 
(Phoenicurus erythronotus), H R FEMS (Tarsiger 
cyanurus), Z (Regulus regulus), YR JA WI = 
(Phylloscopus humei), YLEI; (Phylloscopus 
collybita), R4, (Turdus atrogularis) 等 。 附 近 
Lk LA IE (Accipiter nisus) 、 红 集 (Falco 
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tinnunculus )、 石 鸡 (Alectoris chukar), 4 #3 


(Columba rupestris), ’}\§% (Athene noctua), ffi f 
(Eremophila alpestris), H11 ® (Pseudopodoces 
humilis), A25 (Prunelle fulvescens), WIRE 
(Passer montanus) 等 儿 十 种 鸟 类 。 
斑 [ 姬 ] 锅 体 长 120—140mm, HK 75—84mm, 
体重 10 一 15g， 迁 徙 季节 可 达 20.5g. HELMETS P16 
略 小 于 斑 钢 (Muscicapa striata), MKF PEW] 
8% (Ficedula westermaa1z1i)。 通 体 为 黑白 二 色 〈G ) 
或 者 褐色 及 白色 (9 )。 雄 鸟 上 体 黑色 ， 额 前 有 白色 
Dt, EMARE, BEER eR, PAE 
括 尾 下 窗 羽 均 为 白色 。 肉 鸟 上 体 灰 褐 色 , ROA fa, 
下 体 近 白 。 WKY SHES Bak, 通体 为 褐色 及 白色 。 
斑 [ 姬 ] 负 与 小 斑 [ 姬 ] 钢 比较 相似 ， 主 要 区 别 在 于 斑 
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